EvoClass
ИИ012

Глубокое погружение в большие языковые модели

Автономные агенты, RLHF и выравнивание по безопасности

Урок
Урок 8
Преподаватель
ИИ-наставник

Цели обучения

  • Анализировать архитектурные компоненты графических интерфейсов агентов, включая модули планирования, принятия решений и рефлексии в многоагентных системах.
  • Объяснить механику обучения с подкреплением (RL) и обучения с подкреплением от человека (RLHF), особенно роль моделей вознаграждения и алгоритма PPO в согласовании поведения агента с человеческими ценностями.
  • Оценить риски безопасности и проблемы надежности автономных агентов, включая ошибки вне распределения данных (OOD), атаки типа «сброс» и внешние отвлекающие факторы.